重磅!国信证券通过 DevOps 技术运营标准评估,相关项目能力达到先进水平
编者按:根据麦肯锡的一项研究结果,科技公司想要成功,关键所在无外乎两点:标准化和工具赋能。标准本身是最佳实践的集合,有了标准,每一步都离目标更近(而不是偏离),将标准固化在工具里,让人做更有价值的事情。这和技术运营标准的核心理念不谋而合,旨在体系化的整理技术运营的共性能力模块与实践。
2020 年 11 月 27 日,由云计算开源产业联盟(OSCAR)指导,由高效运维社区(GreatOPS)和开放运维联盟(OOPSA)联合主办的第十五届 GOPS 全球运维大会在上海正式召开。GOPS 全球运维大会至今已经举办了 14 届,是国内第一个也是最大的运维行业大会,也是备受瞩目的千人峰会,面向互联网及金融、通信等传统行业广大运维、开发等技术人员,传播先进技术思想和理念,分享业内最佳实践。
大会隆重发布了 DevOps 标准技术运营部分第二批评估结果。国信证券本次参评的金太阳项目顺利通过由中国信息通信研究院(以下简称信通院)开展的《研发运营一体化( DevOps )能力成熟度模型》技术运营部分 2 级评估,代表着国信证券在该业务系统的技术运营能力达到国内先进水平。
国信证券是继去年华泰证券之后,作为证券行业第二家、华南地区第一家通过技术运营 2 级的企业。
国信证券信息技术总部系统运行部总经理杨阳先生及团队
杨:国信证券是行业前八家创新试点证券公司之一,创新能力、竞争优势和市场地位突出。金太阳手机 APP 是公司自主研发的一站式金融投资理财软件,为投资者提供实时证券行情、财经资讯、开户业务办理、证券交易、理财等功能。截至 2020 年三季度金太阳手机证券注册用户数超过 1400 万,证券客户数超过 800 万。其中,资讯项目包括了国信研报、专家观点、上市公司资讯及数据、市场分析、股票 F10、智能选股、智能搜索等特色资讯服务。
杨:国信证券技术运营团队一直以来以“打造稳定、高效、安全、具备优秀用户体验的数据中心运营服务,为公司业务创造价值”为目标,围绕着“学习、分享、协作、创新、持续改进”的团队文化和价值观,努力打造学习成长型和持续改进型组织,力争成为行业领先的数据中心技术运营团队。
DevOps 技术运营管理过程包括:监控管理、事件与变更管理、配置管理、容量与成本管理、高可用管理、业务连续性管理、用户体验管理等方面,共涉及在 35 项评估维度。从项目的评估结果来看,金太阳手机 APP 资讯项目整体达到技术运营标准 2 级能力要求,特别是在监控工具整合、架构设计高效、数据打通、流程打通、组织打通等方面具备了较多创新亮点,表现出色,具备行业引领示范作用。从已申报参评单位角度看,国信证券是第三家通过 2 级评估。根据技术运营评估标准,技术运营 2 级代表了国内先进级水平,我公司在金太阳项目的技术运营能力已全面达到国内先进级水平,部分能力域优势突出,已达到国内领先级水平。
杨:国信证券技术运营团队一直致力于建设标准化、自动化、平台化、数据化和智能化的运行管理体系。我们实施 DevOps 技术运营评估项目,不仅仅是为了评估和通过一个项目,更重要的是为了提高整个组织的 DevOps 实践能力,这是建立组织级技术运营体系的重要举措。
在技术运营管理方面,我们一直在探索最佳的落地实践。希望通过此次评估,帮助我们建立和形成全面的技术运营的体系化思维,明确技术运营工作开展的方向、目标和要求,开阔团队的视野,明确后续努力的方向。
金太阳手机APP作为国信证券的核心拳头产品,是我们日常技术运营管理的重点工作之一。选择手机证券资讯项目作为公司第一个技术运营2级评估试点项目,主要考虑金太阳手机系统属国信证券自主研发,全面采用了自研的微服务框架,部署架构复杂,业务链路全面,其下包括多个业务子系统,其中资讯应用版本快速迭代,最早实现了持续交付标准化,全部组件微服务化管理,并且需要频繁迭代,在运营管理上具备一定的代表性。通过这个项目评估,可以充分检验我们当前的技术运营水平;同时,团队通过经验积累,将为其他系统运营能力的提升奠定基础。基于此,后续可通过对其他业务系统进行快速的复制和推广,从而提升整个组织的 DevOps 实践能力。
杨:通过此次评估,可以帮助项目团队对 DevOps 的技术运营体系、标准以及具体的落地实施,有了更加深刻的认识,扩宽了视野,建立了对于技术运营体系的全局观和整体观,可以有效指导和提升团队整体的日常工作。
经过多年积累,国信证券围绕着以应用为核心,基于 CMDB 构建统一的IT基础数据生产和消费生态,全面整合了基础资源、用户体验、业务监控、流程与自动化等 30 多个平台工具,全面覆盖了监管控析等各个方面,具备了良好的项目实施基础。
此次评估项目从 6 月份正式启动,经历了 4 个月,经过两轮的改进迭代,验收评估全面达标。回顾整个项目的实施过程,项目团队全面提升了在监控管理、事件与变更管理、配置管理、容量与成本管理、高可用管理、业务连续性管理、用户体验管理等 7 个技术运营能力域方面的能力。例如:在客户体验分析方面,我们通过建设 APM 平台采集用户性能数据,结合大数据平台指标数据对客户体验分析优化,形成持续改善优化的机制;在事件管理方面,我们结合知识库和预案,完善了事件的升级和故障处置,告警回顾率及有效告警占比得到了很大的提升,可用性事件逐步减少;在变更方面,资讯模块应用全部实现了微服务化并接入了持续交付流水线,完成了配置分离,业务发布频率提高至可每天多次;通过月度全网灾备切换演练、常态化的全链路压测、容量指标监控、运行月报分析,对业务连续性及容量进行管理。
通过此次评估,金太阳项目的技术运营能力达到国内先进级水平,部分能力域优势突出,已达到国内领先水平,这是对于我们团队长期以来坚持的目标和所取得成果的检验和肯定,是一次非常重要的激励,也是对我们日常技术运营各方面工作的极大的认可,鼓舞和坚定了我们的信心。
杨:金太阳手机 APP 资讯服务系统的技术特色主要包括基于自研的微服务架构以及开源、分布式技术的应用,解决传统应用升级缓慢、架构臃肿、不能快速迭代等问题。从传统的总线架构迁移到自研Zebra微服务框架,全部实现微服务化和快速持续发布,并启动容器化试点。服务部署采用私有云“同城+异地三机房”多条互联网线路接入,静态资源公有云+CDN 部署,整体条带化访问,同时客户端能通过权重控制、自动测速、灵活调度引流和热加载更新。
杨:在项目过程中,需要对照各个能力项评估标准要求,找到差距点逐条落实改进。总体来看,项目是进展得比较顺利的,近几年来我们团队一直在技术运营方面持续积累,在不少能力域方面均有一定的基础。本次初始差距评估主要体现在用户体验管理、成本管理等方面。需要通过多轮的差距分析和改进能力项版本迭代,逐步提升团队的能力和消除差距。这对整个项目团队跨小组协调、正确理解需求、在规定时间范围内完成任务,都带来了很大挑战。最终我们将子任务逐一分解,大家合力攻坚,不懈的努力,在四个月内完成评审项的改进、评估材料的整理收集及验收汇报。
杨:DevOps 标准的落地,对我们来说是一个加强开发运维合作、规范内部流程、整合内部资源提升内力的过程,包括从工具、流程、规范保障业务的高可用性等方面,从而有效提升了业务的快速交付能力,保障了系统的稳定运行。未来我们将基于传统ITIL理念为核心的稳态管理,逐步向以 DevOps 理念为核心的敏捷运维转变,围绕着稳定性保障、快速交付,进一步提升我们的监控能力、故障诊断与定位分析能力、自动化处置和恢复能力以及线上系统的快速部署能力。同时,基于运维数据挖掘和分析,实现数据驱动型运维,从工具化走向场景化和平台化运维,逐步探索智能化运维发展之路。
杨:结合此次专家的评审意见,在优势方面我们需要进一步保持和完善,同时也要持续补足短板,建立一个完备的技术运营管理体系,比照国内领先水平,对于存在的短板进行调研分析和持续改进,进一步缩短与国内领先水平的差距。
同时,基于金太阳手机证券资讯项目,总结当前能力和最佳实践,对其他业务系统进行快速复制和推广,推动其他业务系统的技术运营能力的全面提升。将组织的运营水平提高到一个新的高度,为业务创造更多价值。
最后,技术运营团队还需要与开发团队一起,共同完成 DevOps 持续交付标准3级评估,持续提升我公司整体 DevOps 实践能力,更好地促进公司业务的发展。
杨:拥抱金融科技,实现产品和服务创新,提升客户服务质量,加强风险防范和控制能力,实现企业的数字化转型已是当前证券行业的必选项。DevOps 实践可以有效打通需求、开发、测试、部署、运维等环节,为产品的快速迭代、快速上线提供了端到端的能力支持。既可以快速、稳定、安全地交付用户价值,同时也可以通过自动化的技术手段保障系统的稳定性,让客户拥有更好的服务体验,为传统券商实现数字化转型、增强金融科技应用提供了有效的技术支撑手段,是产品研发实现效能提升的必由之路。
中国信息通信研究院@刘凯铃
高效运维社区@东辉